扩容主存储-分布式存储
场景说明
当使用分布式存储的场景,主存储空间不足,需要扩容。
风险评估
需要提前将对应服务器上的云主机迁移至其他节点,保障业务持续性。
准备工作
1)规划变更时间
在正式进行变更操作之前,需要和客户的运维人员沟通好变更窗口期,尽量将变更窗口期设定为可能对业务影响最小的时间段。
2)状态检查
在正式进行变更操作之前,对云平台和存储进行健康检查,确保当前环境是正常状态。
3)资源准备
在正式进行变更操作之前,提前准备好相应的扩容资源。扩容的OSD硬盘需要和原有集群保持一致。
操作步骤
1)云平台热迁移云主机
关闭全局设置中,“云主机高可用全局开关”。 将待变更的物理机上的所有云主机热迁移至集群内的其他物理机上,确保业务的正常运行。 登录云平台,选择“资源中心”中“硬件设置”,左侧选择“物理机”,点击需要变更的物理机,进入“关联资源”,即可查看到当前物理机上运行的云主机。
选择对应云主机,“更多操作”中选择“迁移”,并选择“更改物理机”进行迁移。推荐勾选“启用自动收敛模式”以确保迁移任务能成功执行。
逐一将待变更物理机上的云主机前部迁移完成后。SSH登录至待变更的物理机上,使用virsh list 命令确认是否为空,是否还存在云主机或者云路由器。 确认全部迁移完成后,在“物理机”页面,“更多操作”中选择“进入维护模式”。等待物理机的状态从“启用”,变更为“进入维护模式”。
2)存储禁止数据恢复
为了确保在变更期间减少由数据重平衡机制带来的IO压力,需要对分布式存储设置“禁止数据恢复”以减少整个过程中的数据重平衡次数。 登录存储平台,点击右上角的设置按钮,点击“禁止数据恢复”选项
弹出再次确认界面,点击“禁止”开启禁止数据恢复设置。 进入“禁止数据恢复”的状态后,会显示出如截图的红色闪烁状态。
3)确认缓存分区数量
登录存储管理界面,点击“资源管理” – “缓存分区”,查看现在的缓存分区数量。确认是否存储空余的缓存分区。 备注:标准实施规范中要求分区是按照SSD 1:5,NVME 1:10的进行分区,目的是为了方便后期扩容。
a.扩容硬盘
环境按照标准实施,存在空余的缓存分区,直接扩容硬盘。 点击“资源管理” – “硬盘”,选择对应的存储池,然后勾选一台服务器中新插入的硬盘,其余设置都按照集群原来的设置,点击“创建”。
b.重新配置缓存分区,扩容硬盘
环境未按照标准实施,缓存分区已经用完,需要重新配置缓存分区后再扩容硬盘。 在存储管理页面,选择“资源管理” – “缓存分区”,确认本次需要变更的缓存盘,和需要变更的OSD数据盘编号。 选择“资源管理” – “存储池”,勾选对应的存储池,点击“操作” – “移除硬盘”,将需要变更的缓存盘对应的OSD数据盘,全部从存储池中移除。 选择“资源管理” – “硬盘”,切换到列表页面,勾选待移除的OSD,点击“操作”- “删除”。 选择“资源管理” – “缓存分区”,勾选对应的缓存盘,点击“清除”。 选择“资源管理” – “缓存分区”,点击“添加”,勾选待添加的缓存盘,重新设置分区个数比,点击“添加”。 选择“资源管理” – “硬盘”,点击“创建”,选择对应存储池后,选择需要添加的OSD硬盘,其余设置按照集群原来的设置,点击“创建”。
4)添加硬盘到存储池
点击“资源管理” – “存储池” ,勾选对应存储池,选择“操作” – “添加硬盘”
勾选对应新添加的数据盘,选择“添加”。
5)存储开启数据恢复
登录存储平台,点击右上方的设置按钮,点击“允许数据恢复”,会弹出再次确认的窗口,点击“开启”后,存储池会进行数据恢复,需要等待集群数据状态恢复至100%(为了避免对业务造成影响,推荐选择低速恢复)。等待当前的存储环境恢复正常。
6)云平台恢复
登录云平台页面,点击“资源中心”中的“硬件设置”,左侧选择“物理机”,选择对应的物理机,在“更多操作”中选择“启用”。等待物理机连接成功。
7)继续扩容其他节点
参考本章操作步骤中1~6步骤,继续扩容其他节点,保证存储内所有节点的硬盘配比相同。
扩容完成
若变更已经完成,确认环境正常后打开“云主机高可用全局开关”。扩容过程结束。